统计学入门(4):数据的类别、来源与质量
在统计学的世界里,数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是人们认识世界、分析问题的基础。数据可以是定量的,也可以是定性的,其形式多样,包括数字、文字、图像等。统计数据通常可分为定类、定序、定距、定比数据,下文简要介绍下区别:
定类数据是用于描述类别或名称的数据,其各个类别之间没有固定的顺序。例如,性别(男、女)、血型(A、B、AB、O)、国籍等。定类数据可以进行计数和模式的查找,但不能进行算术运算。
定序数据是既有类别也有顺序的数据,但各个类别之间的间隔不一定相等。例如,教育程度(小学、中学、高中、大学)、满意度评级(非常不满意、不满意、一般、满意、非常满意)等。定序数据除了可以进行计数和模式查找外,还可以进行排序,但不能进行加减乘除等算术运算。
定距数据是有固定间隔、无真正零点的数据。例如,温度(摄氏度或华氏度)、智商等。定距数据不仅可以进行计数、模式查找和排序,还可以进行加减运算,但不能进行乘除运算或计算比率。
定比数据是有固定间隔且有真正零点的数据。例如,身高、体重、年龄、收入等。定比数据可以进行所有算术运算,包括加减乘除和计算比率。
了解这些数据类别对于选择适当的统计方法和数据分析工具非常重要。不同的数据类型需要不同的处理方式和分析方法。例如,对于定类数据,我们可能会使用频率分布表或卡方检验;而对于定比数据,我们可以使用均值、标准差和其他描述统计量。
数据的来源广泛,按其获取方式主要分为两类:原始数据和二手数据。
原始数据是直接从数据源收集的数据,未经过任何处理。这些数据通常更准确,更能反映实际情况,但获取成本较高。
实验通常涉及到对研究对象施加某种干预或处理,并观察其对结果的影响。如何做实验是个复杂的话题,此处不做深入探讨。
例如,一个化学实验记录了不同温度下溶液的pH值:
温度(摄氏度): 20, 25, 30, 35, 40
pH值: 7.1, 7.3, 7.6, 7.8, 8.0
在数据收集和研究中,观察法是一种常见的方法,它涉及到直接或间接观察对象、事件或现象,以获取信息和洞察。
例如,一个生态学者在野外观察某种鸟类的筑巢行为,记录下了连续30天每天的筑巢数量。
调查是一种通过询问一组选定的人员来收集数据和信息的方法。这种方法通常用于收集关于人们的意见、态度、行为和特性的数据。调查可以通过多种方式进行,如面对面访谈、电话访谈、邮寄问卷和在线问卷等。
例如,一个市场调研公司进行了一项关于消费者购物偏好的调查,询问了1000名消费者他们最喜欢的购物渠道。
二手数据是指已经被其他个人或组织收集、处理过的数据。这类数据获取容易,但可能存在偏差,需要仔细评估其可靠性。以下是几类常见的二手数据来源:公共数据库、商业数据、社交媒体数据与政府报告。
例如,中国国家统计局的《数据》栏目,网址为http://www.stats.gov.cn/sj/,提供了大量统计数据、报告和公告,涵盖了经济、社会、环境等各个方面的信息,见图1。
例如,PubMed Central (PMC)提供生物医学和生命科学领域的学术论文。arXiv提供预印本论文,让研究者能够在正式出版前分享他们的研究成果。数据共享平台(如Figshare、Zenodo)允许研究者存储、共享和发现各个学科的研究数据。
例如,Factiva 提供了广泛的新闻和商业信息,涵盖了全球数千家媒体出版物;LexisNexis 提供法律、商业和新闻数据库服务,广泛用于法律研究、商业分析和新闻挖掘;Westlaw 提供了大量的法律文本、判例和其他相关信息;Gartner 提供了广泛的市场研究报告和分析,尤其专注于信息技术行业;Bloomberg Terminal 提供了全面的金融数据、分析工具和新闻,广泛应用于全球金融市场。
例如,通过API获取的新浪微博上的帖子数据,用于分析公众对某一事件的情感倾向;还有B站上的视频等。
例如,中国国家统计局的国民经济运行情况,中国社会发展统计年报,中国的外交政策白皮书,中国的国防白皮书等。
确保数据的质量是统计分析成功的关键。数据质量可以从准确性、完整性、一致性、可靠性和及时性等方面来评估。
为了保证数据质量,我们可以采取以下措施:
数据清理是指识别并纠正或删除数据中的错误或不一致,下面让我们来看一些例子:
例如,在一组调查数据中,有些参与者没有填写年龄信息。你可以选择删除这些记录,或者用平均年龄、中位数或众数来填充缺失值。
例如,一家公司记录了过去一年的日销售数据。如果某一天的销售额是其他任何一天的10倍以上,这可能是录入错误,需要进一步调查或删除该数据点。
例如,在一份客户名单中,同一个客户可能被重复记录了多次。需要识别并删除这些重复记录,确保每个客户在名单中只出现一次。
在处理文本时,还有一些需要特别注意的地方,因为文本数据通常更容易受到输入错误、格式不一致或无关字符的影响。以下是一些文本数据清理的常见例子:
去除多余的空格:用户在填写表单时可能会在单词之间或句子的开始/结束处输入多余的空格。例如,"我 喜欢学习 "应该被清理为"我喜欢学习"。
统一大小写:为了便于分析,通常需要将所有的文本数据转换为相同的大小写格式。例如,"Apple"、"apple"和"APPLE"应该统一成"apple"或"Apple"。
纠正拼写错误:文本数据中可能包含拼写错误,需要识别并纠正。例如,"recieve"应该被纠正为"receive"。
去除标点和特殊字符:在某些文本分析任务中,标点符号、特殊字符及某些词语可能不是必需的,可以将其去除。例如,停用词(Stop words)是指在文本中频繁出现但通常不承载主要意义,对于理解文本内容贡献不大的词语,如英文中的“is”、“the”、“and”等,中文中的“的”、“了”、“在”等,在进行文本分析前我们会将其去除。
处理缺失值:文本字段可能为空或包含缺失标记,如"NA"或"NULL"。需要决定如何处理这些缺失值,是删除它们、填充默认文本还是以其他方式处理。
去除或替换无意义的文字:某些文本可能包含对分析没有帮助的信息,如"未知"、"无"等,需要将其去除或替换。
文本切割和合并:有时,文本字段中可能包含多个信息,需要将其分割成单独的字段。反之,有时也需要将多个字段合并成一个文本字段。
处理不一致的数据格式:例如,日期和时间可能以不同的格式存在,需要统一成标准格式。
数据验证是确保数据的准确性和一致性的过程,下面让我们来看一些例子,
3.2.1 范围检查
例如,一份调查表中有一个“年龄”字段。可以设置验证规则,确保输入的年龄在0到120之间,以排除明显的输入错误。
3.2.2 格式检查
例子:在一个在线表单中,用户需要输入他们的电子邮件地址。通过正则表达式验证,可以确保输入的电子邮件地址符合标准格式。
3.2.3 数据一致性检查
例子:一个电商网站的数据库中有商品价格和库存数量两个字段。如果某个商品的价格是负数或库存数量是负数,这显然是不一致的,需要进行修正。
拼写检查
使用拼写检查工具来识别文本中的拼写错误,对于专有名词或行业术语,可能需要自定义词典。
语法验证
使用语法分析工具检查句子结构,确保句子是语法正确的。例如,检查一些常见的语法错误,如主谓不一致、时态错误等。
上下文验证
确保文本内容在特定上下文中是有意义的。例如,在医疗领域,确保病例报告中的医学术语是准确并且适当使用的。